3.2.4. Tips for parameter search
3.2.4.1. Specifying an objective metric
scoring引数
By default, parameter search uses the score function of the estimator to evaluate a parameter setting.
「デフォルトではパラメタサーチはパラメタ設定を評価するため、推論器のscore関数を使う」
These are the sklearn.metrics.accuracy_score for classification and sklearn.metrics.r2_score for regression.
「推論器のscore関数は、分類の場合はaccuracy_scoreで、回帰の場合はr2_scoreである」
For some applications, other scoring functions are better suited (for example in unbalanced classification, the accuracy score is often uninformative).
「いくつかの応用では、他のスコア関数がより適する(例えば非均衡な分類ではaccuracyはしばしば情報が不十分となる)」
An alternative scoring function can be specified via the scoring parameter of most parameter search tools.
「代わりのスコア関数はほとんどのパラメタ検索ツールのscoring引数を介して指定できる」
3.2.4.2. Specifying multiple metrics for evaluation
GridSearchCV and RandomizedSearchCV allow specifying multiple metrics for the scoring parameter.
HalvingRandomSearchCV and HalvingGridSearchCV do not support multimetric scoring.
3.2.4.3. Composite estimators and parameter spaces
Pipeline(など)向け、<estimator>__<parameter> syntax
アンダースコア2本
DjangoのORMでも見る
3.2.4.4. Model selection: development and evaluation
Model selection by evaluating various parameter settings can be seen as a way to use the labeled data to “train” the parameters of the grid.
「さまざまなパラメタ設定の評価によるモデル設定は、グリッドのパラメタを"訓練"するためにラベル付きデータをう方法として見なせる」
When evaluating the resulting model it is important to do it on held-out samples that were not seen during the grid search process:
「結果のモデルを評価する時、グリッドサーチの間見なかった、取り分けられたサンプルを使って評価するのが重要」
it is recommended to split the data into a development set (to be fed to the GridSearchCV instance) and an evaluation set to compute performance metrics.
「(GridSearchCVインスタンスに与える)開発セットと性能指標を計算するための評価セットにデータを分けるのが推奨される」
3.2.4.5. Parallelism
n_jobs引数
3.2.4.6. Robustness to failure
Some parameter settings may result in a failure to fit one or more folds of the data.
「いくつかのパラメタ設定は、データの1つ以上のfoldで訓練するのに失敗という結果になるかもしれない」
By default, this will cause the entire search to fail, even if some parameter settings could be fully evaluated.
「たとえいくつかのパラメタ設定は十分に評価されていたとしても、デフォルトでは1つの失敗により検索全体が失敗する」
Setting error_score=0 (or =np.NaN) will make the procedure robust to such failure, issuing a warning and setting the score for that fold to 0 (or NaN), but completing the search.
「error_score引数を0(またはnp.NaN)に設定することで、警告を発行し、そのfodのスコアを0(またはNaN)に設定するが検索を完了して、失敗から手順を頑健にできる」